将无人机应用扩展到复杂任务的研究需要稳定的控制框架。最近,在许多研究中,对机器人控制以完成复杂的任务进行了深入的强化学习(RL)算法。不幸的是,由于难以解释博学的政策和缺乏稳定保证,尤其是对于诸如攀岩无人机之类的复杂任务,因此深入的RL算法可能不适合直接部署到现实世界的机器人平台中。本文提出了一种新型的混合体系结构,该结构通过使用无模型的Deep RL算法学习的强大策略来增强名义控制器。所提出的架构采用不确定性感受的控制搅拌机来保留名义控制器的保证稳定性,同时使用学习策略的扩展性能。该政策在模拟环境中进行了数千个域随机化的培训,以实现多样化的不确定性的稳健性能。通过现实世界实验验证了所提出的方法的性能,然后与传统的控制器和经过香草深RL算法训练的基于最新的学习控制器进行了比较。
translated by 谷歌翻译
从3D点云中对可遍历区域和感兴趣的对象的感知是自主导航中的关键任务之一。一辆地面车辆需要寻找可以通过车轮探索的可遍历的地形。然后,为了做出安全的导航决定,必须跟踪位于这些地形上的物体的分割。但是,过度分割和分割不足可能会对此类导航决策产生负面影响。为此,我们提出了旅行,该行程使用3D点云的图表表示可遍历的地面检测和对象聚类。为了将可穿越的接地段分割,将点云编码为图形结构,即三个格里德字段,该场将每个三个格里德视为节点。然后,通过检查连接节点的边缘的局部凸度和凹度来搜索和重新定义可遍历的区域。另一方面,我们的地上对象分割通过表示球形预测空间中的一组水平相邻的3D点作为节点和节点之间的垂直/水平关系,以使用图形结构。充分利用节点边缘结构,上面的分割可确保实时操作并减轻过度分割。通过使用模拟,城市场景和我们自己的数据集的实验,我们已经证明,根据常规指标,我们提出的遍历地面分割算法优于其他最新方法,并且我们新提出的评估指标对于评估是有意义的地上细分。我们将在https://github.com/url-kaist/travel上向公开提供代码和自己的数据集。
translated by 谷歌翻译
In unstructured environments, robots run the risk of unexpected collisions. How well they react to these events is determined by how transparent they are to collisions. Transparency is affected by structural properties as well as sensing and control architectures. In this paper, we propose the collision reflex metric as a way to formally quantify transparency. It is defined as the total impulse transferred in collision, which determines the collision mitigation capabilities of a closed-loop robotic system taking into account structure, sensing, and control. We analyze the effect of motor scaling, stiffness, and configuration on the collision reflex of a system using an analytical model. Physical experiments using the move-until-touch behavior are conducted to compare the collision reflex of direct-drive and quasi-direct-drive actuators and robotic hands (Schunk WSG-50 and Dexterous DDHand.) For transparent systems, we see a counter-intuitive trend: the impulse may be lower at higher pre-impact velocities.
translated by 谷歌翻译
Media bias can significantly impact the formation and development of opinions and sentiments in a population. It is thus important to study the emergence and development of partisan media and political polarization. However, it is challenging to quantitatively infer the ideological positions of media outlets. In this paper, we present a quantitative framework to infer both political bias and content quality of media outlets from text, and we illustrate this framework with empirical experiments with real-world data. We apply a bidirectional long short-term memory (LSTM) neural network to a data set of more than 1 million tweets to generate a two-dimensional ideological-bias and content-quality measurement for each tweet. We then infer a ``media-bias chart'' of (bias, quality) coordinates for the media outlets by integrating the (bias, quality) measurements of the tweets of the media outlets. We also apply a variety of baseline machine-learning methods, such as a naive-Bayes method and a support-vector machine (SVM), to infer the bias and quality values for each tweet. All of these baseline approaches are based on a bag-of-words approach. We find that the LSTM-network approach has the best performance of the examined methods. Our results illustrate the importance of leveraging word order into machine-learning methods in text analysis.
translated by 谷歌翻译
Researchers produce thousands of scholarly documents containing valuable technical knowledge. The community faces the laborious task of reading these documents to identify, extract, and synthesize information. To automate information gathering, document-level question answering (QA) offers a flexible framework where human-posed questions can be adapted to extract diverse knowledge. Finetuning QA systems requires access to labeled data (tuples of context, question and answer). However, data curation for document QA is uniquely challenging because the context (i.e. answer evidence passage) needs to be retrieved from potentially long, ill-formatted documents. Existing QA datasets sidestep this challenge by providing short, well-defined contexts that are unrealistic in real-world applications. We present a three-stage document QA approach: (1) text extraction from PDF; (2) evidence retrieval from extracted texts to form well-posed contexts; (3) QA to extract knowledge from contexts to return high-quality answers -- extractive, abstractive, or Boolean. Using QASPER for evaluation, our detect-retrieve-comprehend (DRC) system achieves a +7.19 improvement in Answer-F1 over existing baselines while delivering superior context selection. Our results demonstrate that DRC holds tremendous promise as a flexible framework for practical scientific document QA.
translated by 谷歌翻译
在许多现实世界中,当不二维测量值时,可能会提供自由旋转3D刚体(例如卫星)的图像观察。但是,图像数据的高维度排除了学习动力学和缺乏解释性的使用,从而降低了标准深度学习方法的有用性。在这项工作中,我们提出了一个物理知识的神经网络模型,以估计和预测图像序列中的3D旋转动力学。我们使用多阶段预测管道实现了这一目标,该管道将单个图像映射到潜在表示同构为$ \ Mathbf {so}(3)$,从潜在对计算角速度,并使用Hamiltonian Motion使用Hamiltonian运动方程来预测未来的潜在状态博学的哈密顿人的代表。我们证明了方法对新的旋转刚体数据集的功效,该数据集具有旋转立方体和矩形棱镜序列,并具有均匀且不均匀的密度。
translated by 谷歌翻译
美国的意识形态分裂在日常交流中变得越来越突出。因此,关于政治两极分化的许多研究,包括最近采取计算观点的许多努力。通过检测文本语料库中的政治偏见,可以尝试描述和辨别该文本的两极分性。从直觉上讲,命名的实体(即,用作名词的名词和短语)和文本中的标签经常带有有关政治观点的信息。例如,使用“支持选择”一词的人可能是自由的,而使用“亲生生命”一词的人可能是保守的。在本文中,我们试图揭示社交媒体文本数据中的政治极性,并通过将极性得分分配给实体和标签来量化这些极性。尽管这个想法很简单,但很难以可信赖的定量方式进行这种推论。关键挑战包括少数已知标签,连续的政治观点,以及在嵌入单词媒介中的极性得分和极性中性语义含义的保存。为了克服这些挑战,我们提出了极性感知的嵌入多任务学习(PEM)模型。该模型包括(1)自制的上下文保护任务,(2)基于注意力的推文级别的极性推导任务,以及(3)对抗性学习任务,可促进嵌入式的极性维度及其语义之间的独立性方面。我们的实验结果表明,我们的PEM模型可以成功学习极性感知的嵌入。我们检查了各种应用,从而证明了PEM模型的有效性。我们还讨论了我们的工作的重要局限性,并在将PEM模型应用于现实世界情景时的压力谨慎。
translated by 谷歌翻译
近年来,深度学习模型已成为农业计算机愿景的标准。这样的模型通常使用最初适合更通用的非农业数据集的模型权重对农业任务进行微调。缺乏农业特定的微调可能会增加训练时间和资源的使用,并降低模型性能,从而导致数据效率的总体下降。为了克服这一限制,我们为三个不同的任务收集了广泛的现有公共数据集,标准化它们,并构建标准培训和评估管道,为我们提供了一组基准测试和预处理的模型。然后,我们使用在深度学习任务中常用的方法进行了许多实验,但在其特定领域的农业应用中未探索。我们的实验指导我们开发多种方法,以提高培训农业深度学习模型,而没有对现有管道进行大规模修改。我们的结果表明,即使是使用农业预审预告额的模型权重,或将特定的空间增强量用于数据处理管道,也可以显着提高模型性能并导致较短的收敛时间,从而节省训练资源。此外,我们发现,即使是在低质量注释中训练的模型也可以产生与高质量等效物的可比性水平,这表明注释差的数据集仍然可以用于培训,扩大当前可用数据集的池。我们的方法在整个农业深度学习中广泛适用,并具有重大数据效率提高的高潜力。
translated by 谷歌翻译
产量估计是葡萄园管理中的强大工具,因为它允许种植者微调实践以优化产量和质量。但是,目前使用手动抽样进行估计,这是耗时和不精确的。这项研究表明,近端成像的应用与深度学习相结合,以进行葡萄园中的产量估计。使用车辆安装的传感套件进行连续数据收集,并使用商业收益率监控器在收获时结合了地面真实收益数据的收集,可以生成一个23,581个收益点和107,933张图像的大数据集。此外,这项研究是在机械管理的商业葡萄园中进行的,代表了一个充满挑战的图像分析环境,但在加利福尼亚中央山谷中的一组常见条件。测试了三个模型架构:对象检测,CNN回归和变压器模型。对象检测模型在手工标记的图像上进行了训练以定位葡萄束,并将束数量或像素区域求和以与葡萄产量相关。相反,回归模型端到端训练,以预测图像数据中的葡萄产量,而无需手动标记。结果表明,在代表性的保留数据集上,具有相当的绝对百分比误差为18%和18.5%的变压器和具有像素区域处理的对象检测模型。使用显着映射来证明CNN模型的注意力位于葡萄束的预测位置附近以及葡萄树冠的顶部。总体而言,该研究表明,近端成像和深度学习对于大规模预测葡萄群的适用性。此外,端到端建模方法能够与对象检测方法相当地执行,同时消除了手工标记的需求。
translated by 谷歌翻译
3D形状比2D图像提供了更多的信息。但是,与获取2D图像相比,有时会非常困难甚至不可能,因此有必要从2D图像中得出3D形状。尽管通常这是数学上不适的问题,但可以通过使用先验信息来限制问题公式来解决。在这里,我们提出了一种基于肯德尔的形状空间的新方法,可从单眼2D图像重建3D形状。这项工作是由研究Basking Shark的喂养行为的应用,这是一种濒临灭绝的物种,其巨大的大小和迁移率使3D形状数据几乎无法获得,从而阻碍了对其喂养行为和生态学的了解。但是,这些动物处于进食位置的2D图像很容易获得。我们将方法与基于最先进的形状的方法进行了比较,无论是在人棒模型还是在鲨鱼头骨架上。我们使用一系列的训练形状表明,Kendall Shape空间方法比以前的方法更强大,并导致形状合理的形状。这对于标本很少见的激励应用至关重要,因此只有很少的训练形状可用。
translated by 谷歌翻译